期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于网页正文结构和特征串的相似网页去重算法
熊忠阳 牙漫 张玉芳
计算机应用    2013, 33 (02): 554-557.   DOI: 10.3724/SP.J.1087.2013.00554
摘要829)      PDF (661KB)(431)    收藏
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
相关文章 | 多维度评价
2. 改进的基因术语间语义相似度计算方法
张玉芳 徐安龙
计算机应用    2012, 32 (05): 1329-1331.  
摘要923)      PDF (1955KB)(644)    收藏
目前,基于混合方法的相似度计算对影响语义相似度的因素分析不全面。针对这个问题,提出了基于多个影响术语语义相似度度量因素的综合方法。该方法结合语义层次,语义距离和局部语义密度,充分运用本体的语义信息来计算基因术语间的语义相似度。实验结果表明,该方法与人工打分的相关系数更高。
参考文献 | 相关文章 | 多维度评价
3. 基于维基百科和网页分块的主题爬行策略
熊忠阳 史艳 张玉芳
计算机应用    2011, 31 (12): 3264-3267.  
摘要822)      PDF (628KB)(651)    收藏
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。
相关文章 | 多维度评价
4. 改进的本体匹配算法
张玉芳 李川 熊忠阳
计算机应用    2011, 31 (04): 1067-1069.   DOI: 10.3724/SP.J.1087.2011.01067
摘要1098)      PDF (472KB)(487)    收藏
传统的利用本体结构信息对本体做匹配的方法,并未充分利用本体的树形结构特点,致使整个本体匹配的匹配过程具有大量的冗余计算。因此,提出一种改进的基于本体树形结构的本体匹配算法TARA。该方法首先严格地以本体的树形结构为依据进行本体匹配,然后通过二次匹配来解决由于严格按照树形结构进行匹配而产生的不可避免的不足。实验结果表明,TARA方法的查全率和准确率都有较好的表现。
相关文章 | 多维度评价
5. 改进的概率潜在语义分析下的文本聚类算法
张玉芳 朱俊 熊忠阳
计算机应用    2011, 31 (03): 674-676.   DOI: 10.3724/SP.J.1087.2011.00674
摘要1449)      PDF (575KB)(904)    收藏
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。
相关文章 | 多维度评价
6. 基于密度的kNN分类器训练样本裁剪方法的改进
熊忠阳 杨营辉 张玉芳
计算机应用    2010, 30 (3): 799-801.  
摘要1500)      PDF (534KB)(1023)    收藏
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。
相关文章 | 多维度评价
7. 改进PSO-BP神经网络在变压器故障检测中的应用
熊忠阳 杨青波 张玉芳
计算机应用    2010, 30 (3): 783-785.  
摘要1547)      PDF (637KB)(969)    收藏
粒子群优化(PSO)算法中的粒子根据全局最优粒子来移动自身位置进行搜索,但当某一粒子连续多次被选为全局最优粒子的时候,整个群体的粒子就会快速收敛于该最优粒子,陷入局部最优。为此,提出了变异动态粒子群优化(MDPSO)算法。采用惯性权重变异的思想,当某粒子连续被选为全局最优粒子时,就使一部分粒子的惯性权重以指数速度增长,使粒子跳出局部最小,继续全局寻优。并把改进的粒子群优化算法和BP神经网络相结合,应用于变压器故障检测中。实验表明,与常用的粒子群优化算法相比,用改进的粒子群优化算法优化BP神经网络具有更好的性能,在变压器故障检测中能够获得更高的检测精度。
相关文章 | 多维度评价
8. 结合语义的特征选择方法
熊忠阳 付玲玲 张玉芳 蒋健
计算机应用    2010, 30 (10): 2621-2623.  
摘要1660)      PDF (504KB)(1011)    收藏
传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息,特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。为此,利用《知网》(HowNet)的中英双语知识词典构建“概念—领域”表,对每个词语查询该表,如果在表中,则把该词语映射到“领域”;否则保留原词。这样不仅可以将较低层概念泛化到较高层概念,还能在一定程度上消除特征项之间的冗余,而且从语义上加强它对所在“领域”的分类贡献度。分别应用信息增益和χ2统计利用该方法进行文本分类实验,结果表明该方法可以有效地提高分类准确率。
相关文章 | 多维度评价
9. Markov逻辑网及其在文本分类中的应用
张玉芳 黄涛 艾东梅 熊忠阳
计算机应用    2009, 29 (10): 2729-2732.  
摘要1327)      PDF (759KB)(1336)    收藏
介绍了Markov逻辑网的理论模型、学习算法和推理算法,并将其应用于中文文本分类中。实验结合了判别式训练的学习算法,MC-SAT、吉布斯抽样和模拟退火等推理算法,结果表明基于Markov逻辑网的分类方法能够取得比传统K邻近(KNN)分类算法更好的效果。
相关文章 | 多维度评价
10. 新的CDF文本分类特征提取方法研究
熊忠阳 蒋健 张玉芳
计算机应用    2009, 29 (07): 1755-1757.  
摘要1573)      PDF (498KB)(1761)    收藏

对高维的特征集进行降维是文本分类过程中的一个重要环节。本文在研究了现有的特征降维技术的基础之上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考察CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。

相关文章 | 多维度评价
11. 基于卡方统计的文本分类特征选择方法的研究
熊忠阳 张鹏招 张玉芳
计算机应用   
摘要2915)      PDF (461KB)(1350)    收藏
特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。在全面研究文本分类特征提取方法的基础上,分析了卡方统计的不足并提出了将频度、集中度、分散度应用到卡方统计方法上,对卡方统计进行改进,并通过实验对比改进前后的方法对文本分类效果的影响。在实验中,改进方法的分类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。
相关文章 | 多维度评价
12. 基于最大最小距离法的多中心聚类算法
周涓; 熊忠阳; 张玉芳; 任芳
计算机应用   
摘要2191)      PDF (590KB)(1928)    收藏
针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇。仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类, 聚类性能显著优于k-means算法。
相关文章 | 多维度评价
13. 用改进的遗传算法训练神经网络构造分类器
熊忠阳,刘道群,张玉芳
计算机应用    2005, 25 (01): 31-34.   DOI: 10.3724/SP.J.1087.2005.00031
摘要1171)      PDF (192KB)(1248)    收藏
 针对基本遗传算法存在容易早熟和局部搜索能力弱等缺陷,提出了改进的遗传算法,引入交叉概率和变异概率与个体的适度值相联系,改进了操作算子,而且在交叉操作后又引入模拟退火机制,提高遗传算法的局部搜索能力。同时,用改进的遗传算法和基本的遗传算法训练神经网络构造分类器,实验结果表明,改进的遗传算法在最好个体适度值和最好分类准确性等方面性能更好。
相关文章 | 多维度评价